星环助力EMS运用大数据技术实现了生产环境数据实时监控
EMS集团构筑的第三代BI数仓系统,目前生产加载接口上百个,数据量每天超过千万级有四-五个,ETL批处理作业通过脚本每天集中在0点-8点运行,目前每天正常执行的报表作业近500个。
近年来,我国快递行业随着电子商务的井喷出现了快速的扩张,快递的各个环节都会产生大量的数据,监控与分析这些数据可以对全国各个快递处理中心的收寄和运载能力,出班投递计划做出优化调整,大大降低成本。随着数据量的井喷式扩增以及双十一等电子商务狂欢节的出现,EMS的第三代BI数仓系统在原平台上对快递的实时跟踪查询等业务的支撑出现了瓶颈。
1、存储空间不足
EMS第三代BI数仓系统是在Teradata一体机构筑的,使用空间已超过85%,生产数据由设计的三年改为两年,大部分报表只能保留半年数据,分析类数据准备时间为6小时(每日凌晨0-6点)增长到目前的11小时(21-次日8点)。Teradata节点扩充、存储扩容的费用成本高,为降低成本,因此需要一套基于PC集群的低成本、高效率的数据分析解决方案。
2、处理性能不足
业务高峰期靠停止工作时间生产数据加载和部分应用来保证邮件查询以及报表查询,为实现快速加载而设计的数据模型,在做批量计算处理时需做大表关联操作,资源消耗大、运行时间长。因此需要基于hadoop分布式的计算能力。
3、大量非结构化数据的统一处理
原平台无法提供海量非结构化数据的统一存储。因此需要一套结构化与非结构化数据混合存存储与计算平台。
基于星环科技大数据平台的架构设计通过接口入库程序与sqoop等工具从ESB总线将每天生成数据接入到TDH大数据平台的Hyperbase以实现结构化与非结构化数据的统一存储与管理,然后将每天增量数据通过merge into 插入到适合大数据量离线计算的ORC表中,来支持T+1报表类业务的快速计算。然后将计算结果导入到oracle数据库供EMS业务人员进行查询。
TDH通过此项目在国内乃至全球的快递行业中首次运用大数据hadoop发行版实现了生产环境数据的实时监控,效果如下:
1、可扩展性
平台采用分布式计算、分布式存储架构,计算及存储资源可平滑扩充,大大节约了生产与运维成本。
2、优异的数据处理性能
在所有数仓报表全部迁移至TDH平台。经业务整合后,200报表在30节点TDH集群上执行,5小时完成所有报表跑批,单报表最长4小时多,最短数秒钟。TDH大数据集群运行ETL报表作业400+个,并提供全部1700+个汇总指标的输出。
随着全量业务迁移至TDH,并伴随数据量及业务需求的不断增长,集群规模扩容至50节点集群,在处理性能方面有了大幅度提升,顺利度过双十一、双十二、春节等业务高峰期。
3、优异高可用性能
基于HA主备自动切换、数据副本冗余、负载均衡等机制;自动保存数据的多个副本,自动重新执行失败的任务。
点击或回复关键词,查看相关内容
公司
产品
产品 | 星环的划时代版本-Transwarp Data Hub 5.0
认证考试 | 数据中心联盟—星环联合认证体系首次认证考试报名中
技术
白话大数据 | 白话大数据合集
深入机器学习 | 深入机器学习系列合集
案例
银行 | 中国银行:大数据在银行领域的应用与实践
智能金融 | 星环科技发布证券业大数据战略规划纲要(白皮书)
运营商 | 运营商的新方向-运用Hadoop技术将大数据资产变现
视频监控 | Hadoop在实时视频监控的应用场景